خوشهبندی دادهها بر پایه شناسایی کلید
نویسندگان
چکیده مقاله:
Clustering has been one of the main building blocks in the fields of machine learning and computer vision. Given a pair-wise distance measure, it is challenging to find a proper way to identify a subset of representative exemplars and its associated cluster structures. Recent trend on big data analysis poses a more demanding requirement on new clustering algorithm to be both scalable and accurate. A recent advance in graph-based clustering extends its ability to millions of data points by massive utility of engineering endeavor and parallel optimization. However, most other existing clustering algorithms, though promising in theory, are limited in the scalability issue. In this paper, a novel clustering method is proposed that is both accurate and scalable. Based on a simple criteria, ”key” items that are representative of the whole data set are iteratively selected and thus form associated cluster structures. Taking input of pairwise distance measure between data instances, the proposed method searches centers of clusters by identifying data items far away from selected keys, but representative of unselected data items. Inspired by hierarchical clustering, small clusters are iteratively merged until a desired number of clusters are obtained. To solve the scalability problem, a novel tracking table technique is designed to reduce the time complexity which is capable of clustering millions of data points within a few minutes. To assess the performance of the proposed method, several experiments are conducted. The first experiment tests the ability of our algorithm on different manifold structures and various number of clusters. It is observed that our clustering algorithm outperforms existing alternatives in capturing different shapes of data distributions. In the second experiment, the scalability of our algorithm to large scale data points is assessed by clustering up to one million data points with dimensions of up to 100. It is shown that, even with one million data points, the proposed method only takes a few minutes to perform clustering. The third experiment is conducted on the ORL database, which consists of 400 face images of 40 individuals. The proposed clustering method outperforms the compared alternatives in this experiment as well. In the final experiment, shape clustering is performed on the MPEG-7 dataset, which contains 1400 silhouette images from 70 classes, 20 different shapes for each class. The goal here is to cluster the data items (here the binary shapes) into 70 clusters, so that each cluster only includes shapes that belong to one class. The proposed method outperforms other alternative clustering algorithms on this dataset as well. Extensive empirical experiments demonstrate the superiority of the proposed method over existing alternatives, in terms of both effectiveness and efficiency. Furthermore, our algorithm is capable of large-scale data clustering where millions of data points can be clustered in a few seconds.
منابع مشابه
معرفی و کلید شناسایی کنههای اریباتید (Acari: Oribatida) شهرستان رشت
بررسی فونستیک کنههای راسته نهاناستیگمایان (Acari: Oribatida) شهرستان رشت طی سالهای 1388-1387 انجام شد. کنههای موجود در نمونههای خاک با استفاده از قیف برلز استخراج و در محلول لاکتوفنل شفاف شدند. سپس در محیط هویر از آنها اسلاید میکروسکوپی تهیه شد. در مجموع 15 گونه، 15 جنس و 13 خانواده از کنههای اریباتید (Acari: Oribatida) جمعآوری و شناسایی شدند که در بین آنها 12 گونه، 11 جنس و 8 خانواده بر...
متن کاملگزارشات جدید و کلید شناسایی جنس شیرخشت (Cotoneaster) در ایران
گونههای زیر بعنوان گونه جدید برای فلور ایران ذکر میگردد. Cotoneaster integerrimus, C. melanocorpus, C. morulus, C. multiflorus, C. rechingeri, C. suavis. علاوه بر این یک کلید شناسایی برای گونههای جنس شیر خشت (Cotoneaster) که تاکنون از ایران شناسایی شده ارائه میشود.
متن کاملکلید شناسایی قاب بالان در استان مرکزی Meloidae
افراد خانواده Meloidae که معمولا به عنوان قاب بالان تاول زا شناخته می شوند، نقش مهمی در کنترل بیولوژیک ایفا می کنند. اولین مرحله لاروی اغلب گونه ها از تخم ملخ ها تغذیه می کنند. مطالعه اخیر در سالهای1390 1388-در استان مرکزی انجام شد. نمونه ها به طور تصادفی از مناطق مختلف استان جمع آوری شدند و از طریق ویژگی های ریخت شناسی و اندام جنسی و با استفاده از منابع معتبر شناسایی شده و در موسسه تحقیقات گیا...
متن کاملکلید شناسایی 16 گونه از راست بالان شاخک بلند (Orthoptera: Ensifera) بر اساس ویژگی های بیواکوستیکی
سیگنال های صوتی در بسیاری از راسته های حشرات متداول بوده و راست بالان یکی از شناخته شده ترین راسته های حشرات در فعالیت های صوتی می باشند. در تحقیق کنونی، آواز فراخوانی 16 گونه از راست بالان شاخک بلند متعلق به خانواده های Gryllidae، Gryllotalpidae و Tettigoniidae ثبت گردید. صداها در طبیعت یا آزمایشگاه از حشرات زنده ضبط شدند. سیگنال های صوتی توسط نرم افزار MATLAB (نسخه 2013) پردازش و ک...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 14 شماره 4
صفحات 31- 42
تاریخ انتشار 2018-03
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
کلمات کلیدی برای این مقاله ارائه نشده است
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023